查看原文
其他

当期荐读 2020年第2期 | 认知偏差与突破路径:炒作高峰期后的大数据与社会研究

刘存地 信息资源管理学报 2022-04-24

图片源于摄图网


刘存地 

(武汉大学社会学院,武汉,430072)



[摘 要] 新一轮信息技术革命为社会研究带来了新的数据资源和数据分析处理工具,基于网络大数据的社会研究由此成为计算社会科学的核心内容。但几年来,相关研究成果的质量与价值尚不尽人意,其发展正面临很大的困难。本文对产生这一现象的原因进行分析发现,新兴技术炒作所造成的复杂信息环境,导致不少社科学者对大数据时代的数据获取能力、数据代表性、数据质量、数据处理能力等产生认知偏差;要矫正这些偏差,并突破当前的发展瓶颈,可行的路径是对各种网络大数据进行有针对性的研究,准确而透彻地认识其特征;在研究中注重整合网络大数据与传统数据两种资源,使之互补长短;运用新兴信息处理技术,探索创新适合大数据的分析方法,致力于在研究方法和具体技术层面发展出一套完善的规范。


[关键词] 大数据, 炒作周期, 社会研究, 计算社会科学, 数据质量, 数据代表性








1 引言



随着互联网在全球范围内快速普及,越来越多的人类行为从传统的线下方式向网络在线方式“迁移”,从宏观层面的国家治理、经济运行、产业升级到微观层面的个人学习、工作、生活,都与网络发生越来越广泛和深入的联系。越来越多的人类行为在互联网、移动互联网、物联网中留下电子踪迹并被记录为计算机系统中的数据(Data)。需要特别予以说明的是,此处所说的是计算机科学意义上的 “数据”,即存储于计算机系统,能够为计算机程序所用的信息资料。它与汉语日常意义上和社会科学定量研究意义上的“数据”(进行各种统计、计算、科学研究或技术设计等所依据的数值)是有区别的。这些数据的社会科学价值很快就引起了学界的重视,海量的网络数据被视为可用于社会科学研究的一种新的信息资源,社科学者纷纷开始探索如何将之运用于自己的研究领域。从当前的情况来看,虽然众多学者认为计算社会科学有巨大的发展前景,一些积极有益的探索也取得了一系列创新性的成果,但真正能够算得上突破性的成果仍属罕见,有价值的实证研究也并不多,不少研究还走入了误区。要把基于网络大数据的社会研究在广度上进一步拓宽,在研究质量和研究价值上进一步提升,已经面临相当的困难。为了弄清楚究竟是什么原因导致了计算社会科学的发展遭遇瓶颈,本研究回顾了国内近几年来计算社会科学的探索之路,进行了系统的总结与反思,这对走出认识误区,找到正确的突破方向,无疑具有重要意义。




2 大数据:社会研究的新型信息资源



从社会科学研究的角度看,可以将信息定义为主体能够感知、认识、表述的事物存在的方式及运动变化的状态。这里的“事物”包括物理世界、人类社会、思维活动等所有可能的客体对象。社会研究则可视为有目的地获取各种关于社会事实的信息,并运用科学的方法对信息进行分析处理,来认识客观社会、解释社会现象、探究社会发展规律,以解决各种社会问题,预测社会发展趋势的过程。在社会研究中,能够获取的反映社会结构、社会变迁等信息越具丰富性、真实性、完整性与有效性,社会研究的基础就越坚实。尤其是对于实证研究而言,信息获取的能力和信息分析、处理的水平对研究的质量有重要的甚至是决定性的影响。传统实证研究获取反映社会事实的信息资料的方法有观察、调查、实验等,但这些方法都存在固有的缺陷,如何获取真实的、准确的、完整的、适合研究框架的信息资料,成为社会科学研究者长久以来都在面对的重要问题。 


新一轮的信息技术革命,使互联网、移动互联网、物联网对政治经济社会等领域的渗透越来越广泛,网络空间中生成、采集了海量的人类行为与互动数据。最初,这种规模庞大的数据带来的是一种技术挑战,此后,随着数据分析处理技术不断发展,对海量、异构、动态数据集的获取、存储、管理、分析、挖掘等难题逐步得以解决。于是,网络大数据所蕴藏的价值随即成为关注的焦点。2009 年,《科学》刊发大卫·拉泽尔等学者撰写的题为“计算社会科学”(Computational Social Science)的文章。文章指出,互联网上生成的长时间、连续性、大规模的人类行为与互动数据,能够为社会科学研究提供新的视角,其中蕴含的关于个人与群体行为的规律,可能足以改变我们对个体行为、群体交往、组织结构乃至整个社会运行的认知[1]。这一见解的核心在于指出网络大数据记录了大量关于社会事实的信息,如果有效加以运用,将为复杂社会系统的研究开辟新的路径。这篇文章引起了学界一定程度的关注,但当时的反响尚不是特别热烈。 


2012年7月,联合国发布的《大数据促发展:挑战与机遇》白皮书指出,大数据时代已经到来,探讨如何利用互联网数据推动全球发展。例如,如何使用丰富的数据资源,对社会人口进行前所未有的实时分析[2]。该书的发布,将大数据的分析与应用推入了高潮期,使一直受信息获取能力制约的社会科学领域受到极大震撼,也使大卫·拉泽尔2009年的文章首先在美国社会科学界倍受重视。众多社科学者纷纷开始尝试将网络大数据运用于自己的研究领域,基于网络大数据的社会研究成为计算社会科学的核心议题[3]。 


然而,对于不具备全面的计算机、互联网、信息管理专业知识储备的大多数社科学者来说,新一轮信息技术革命不期而至,他们无暇准备,匆忙迎接来势迅猛的新技术浪潮,其认识、运用大数据不可避免地会面临知识壁垒。而此时,对大数据的炒作也进入了高峰期,对于并不熟悉新兴技术炒作特点的社科学者而言,一时还难以认识到自己所处的是一个颇为不利的认知环境。




3 新兴技术炒作的周期及其商业逻辑



早在1995年,高德纳(Gartner)公司就指出,新兴技术从出现到成熟往往要经历一个炒作周期。炒作周期指新技术、新概念在媒体上的曝光度随时间的变化周期。该公司每年都会发布当年的新兴技术炒作周期曲线 (The Hype Cycle for Emerging Technologies),如图1所示。炒作周期分为五个阶段[4]

图1 Gartner新兴技术炒作周期曲线

(1)科技触发期 (Technology Trigger):新技术出现初期,媒体开始报道,逐步引起外界的关注,但外界尚不能准确评估其发展前景和应用潜力。 


(2)期望膨胀期(Peak of Inflated Expectations):随着新兴技术逐步成型,激进者对其发展前景和应用潜力做出乐观的预判,他们一方面致力于推动技术的进一步发展、完善,并将之导入具体的应用场景;另一方面向社会各界大力宣传,以期引起重视,获得政府支持、资本追捧等有利条件。于是,该技术成为新闻媒体报道的热点,相关的学术会议也进入活跃期, 与之相伴随的是商业炒作盛行。过度的渲染和非理性的宣传,引导公众过分关注成功的案例,从而对该技术的期望持续膨胀。 


(3) 幻 觉 破 灭 期 (Trough of Disillusionment):随着新兴技术在诸多可验证领域的应用,其弱点、问题、局限性逐步暴露,失败的案例多于成功的案例,负面报道不断出现,此前过高的期望归于幻灭。媒体对它的兴趣大为减弱,社会各界对它的热情也逐渐冷却。


(4)复苏爬升期(Slope of Enlightenment): 在经历幻觉破灭期之后,大量的参与者主动离场或被动淘汰,而继续坚守者对该新兴技术的适用范围、优势和缺陷有了客观和清醒的认识,克服难题的思路也日渐清晰,新兴技术进入一个冷静的改进和完善时期。在这一时期,媒体报道趋向于理性,但频度不高。


(5)生产力稳定期(Plateau of Productivity):在经过一段时期的爬升之后,新兴技术趋向于成熟,达到应用高峰,创新所产生的利益与潜力充分显示出来,从而进入主流生产力之列。


高德纳公司每年都会考察、分析各种新兴科技的发展状况,判断其在炒作周期中所处的阶段,预测其发展速度及达到成熟所需的时间。虽然并非所有的新兴技术的发展过程都严格遵循炒作周期曲线,但20余年来对数百种新兴技术发展和应用状况持续追踪的结果表明,其中绝大多数都经历了上述五个阶段,证明炒作周期曲线具有相当的普遍性。 


新兴技术炒作周期有其商业逻辑——技术创新者为了获得必须的或更好的发展条件(如政府扶持、风险投资),一般都会设法对外大力宣传。由于是新兴技术,新闻媒体难以对之有准确而深刻的理解,但新闻天然具有追求新奇性的倾向,因此,出现夸大性甚至误导性的报道在所难免。而当夸大性、误导性的报道出现时,只要尚未触犯法律,技术创新者往往不是去纠正,而是听之任之,甚或推波助澜,因为“炒得越热机会越多”。这种炒作营造出的信息环境,对不具备相关专业知识的人来说显 然是不利于准确认知的。 


以往,新兴技术炒作主要影响的是相关技术人员、企业、风险投资家等,这些领域的决策 者早已深知“炒作无所不在”,并专门总结出 “STREET流程”,以求在合适的时机选择合适的新兴技术,并为创新推广奠定基础[4] 。而新一轮信息技术革命的影响面要宽广得多,它对社会科学研究也产生了巨大冲击,与社会研究密切相关的大数据、人工智能等新兴信息技术正是在期望膨胀期进入社科学者的视野。而绝大多数社科学者尚不知晓商业炒作会伴随新兴技术的成熟过程,对如何应对炒作所营造的信息环境更是毫无经验。




4 大数据的炒作周期与对大数据的认知偏差




4.1  大数据的炒作周期


2012年,大数据首次出现在高德纳的新兴技术炒作周期曲线上,如图2所示。

图2 “大数据”在2012—2014年 Gartner 新兴技术炒作周期曲线中的位置

这一方面可能与联合国的《大数据促发展:挑战与机遇》白皮书有关,另一方面也缘于几年来的一些大数据的成功运用案例的确令人耳目一新。其中最具代表性的有谷歌搜索引擎广告的精确投放、谷歌流感趋势预测的惊人表现,以及奥巴马的竞选团队在利用网络大数据分析选民心理、制定竞选策略上取得的成功。这些成功的案例显示出利用网络大数据洞见现实、优化决策、预测未来的可能性,但同时也使得一些激进的或可称之为盲目乐观的观点开始被更多人接受。例如,《连线》杂志主编克里斯·安德森从谷歌通过数据统计方法实现广告的精确投放这一案例得出,“面对海量数据,‘假设、建立模型、检验’的一系列科学方法正在变得过时”的结论,乃至断言“从语言学到社会学的每一个人类行为理论都已失效”,数据洪流将使“理论终结”;在大数据时代“相关性取代了因果关系”“相关性就足够了”,可以在不经假设的前提下将数据投入庞大的计算机集群中,让统计算法找到传统科学未能寻找到的模式[5]。这样从个别或少数案例中“感悟”出一般性的认识本来是不可靠的,但由于成功案例极具震撼性,这种激进的声音一时压倒了冷静的思考。 


2013年被称为“大数据元年”,对大数据的炒作也进入高峰期,新年伊始,畅销书《大数据时代:生活、工作与思维的大变革》面世,该书搜集了包括学界在内的对大数据的诸多乐观、激进的观点,并总结性地提出大数据时代的“三大思维变革”,即不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。作为畅销书而非学术著作,该书不是凭借严谨的理论思辨和实证研究来论证观点,而是通过一系列大数据运用的成功案例(其中既有真实的也有失实的)来说明和佐证,因此在客观上它会引导读者过分关注成功的案例,忽视大数据存在的局限性及其在运用中诸多尚待解决的问题。该书涉及了社会科学研究,认为“社会科学是被‘样本=总体’撼动的最为厉害的学科”,社会科学“再也不需要抽样调查了”;大数据记录的是人的“平常状态”,可避免传统调查方法的偏见;提出科学研究“要接受不精确性”“相关关系帮助我们更好地了解了这个世界”等观点[6]。 


这些未充分受到实践检验的观点一时广为流传,俨然成为对大数据的主流认识,导致不少社科学者对大数据时代的计算社会科学抱有极为乐观的预期,最极端的是认为运用大数据的研究,可以取代传统的社会科学研究方法。 


然而仅仅一年时间,大数据就跌入了幻觉破灭期。这是因为遭受挫败的案例接踵而来,例如,谷歌流感趋势预测在2013年初出现了严重的预测偏差,并且问题最终未能解决。这一失败其实已经暴露出网络大数据所固有的一些缺陷,以及运用大数据的诸多困难,于是对大数据的炒作在美国也迅速降温。2014年,大卫·拉泽尔等又在《科学》发表了一篇专门的分析文章,对谷歌的经验教训予以了分析总结,并明确指出了大数据在社会研究中存在一定的局限性,批评了“大数据狂妄”(Big Data Hubris),即认为大数 据方法可以取代传统方法,而不是补充传统方法的观点[7]


4.2 国内大数据浪潮的兴起与炒作的重演


中国的新兴信息技术的发展略晚于美国,炒作周期也与美国有时间上的差异,但变化趋势基本相同。早在2010年,就有中国学者将大卫·拉泽尔等2009年发表的“计算社会科学” 的文章做了摘译[8],但当时应者寥寥。2012—2013年,虽然国内已经有不少关于大数据的宣传,但社会科学界也只有极少数学者开始关注。2015年3月,云计算、大数据、物联网被写入政府工作报告,“互联网+”被上升为国家战略,引起社会各界对新一轮信息技术革命的极大关注。至此,大 卫·拉泽尔等2009年的文章才在国内受到前所未有的重视,但此时正值国内大数据的炒作高峰期。 


按理说,既然美国的大数据炒作在 2014年就已降温,中国社会科学界完全应该避免相同炒作的重演,但事实正好相反——2015—2017年国内的炒作比之美国有过之而无不及。例如,大约从2015年起,频频有学者在学术会议上及学术论文中,将谷歌流感趋势预测的神奇表现作为经典案例来介绍,并给予极高的评价。这应该是受《大数据时代:生活、工作与思维的大变革》的影响,该书开篇即把谷歌流感趋势预测誉为大数据洞见现实的典范。显然,这些社科学者在津津乐道谷歌流感趋势预测之时,还不知道“成功典范”实际上已经黯然下线。并且,这些学者大多都会同时谈及大卫·拉泽尔等2009年发表的关于计算社会科学的文章,但似乎对他2014年发表的批评“大数据狂妄”的文章浑然不知。其实,这些关注或决心致力于计算社会科学研究的学者,只要登录一下谷歌流感趋势预测页面,只要以正常的治学态度检索一下国际顶级学术期刊的最新文献,就不至于如此。这也暴露出一个问题——仅从畅销书中了解大数据等新兴技术的知识,而不是遵循科学的认知路径,导致不少社科学者对于大数据的了解是与误解同时开始的。 


炒作中最常用的方法是引导受众过分关注成功的案例,很多正准备迈入计算社会科学之门的社科学者就受到了这种引导。而在极具知名度的案例中,有的并不完整,有的甚至并非真实。例如,广为流传的“啤酒与尿布”案例就是杜撰的。该案例称:沃尔玛的销售数据显示,啤酒与尿布经常会出现在同一购物清单中,进一步分析发现,这是因为在美国有婴儿的家庭中,母亲一般在家中照看婴儿,父亲们下班后顺路去购买尿布。这些年轻的父亲们在买尿布时,经常会买些啤酒犒劳自己。于 是,沃尔玛的管理人员决定将啤酒和尿布摆在一起,两者的销量由此都得到了提升。零售从业者尤其是沃尔玛的供应商,肯定会对这个故事嗤之以鼻。因为他们知道,沃尔玛会对供应商收选位费,尤其是快速消费品,一个好的陈列位置是需要用钱买的。再则,如果真的把沃尔玛的销售数据进行关联分析,自然会发现与尿布关联度高的商品是婴幼儿食品、服装、玩具等,而不是啤酒。但这个故事又被不少社科学者当作数据挖掘的经典案例,不断出现在关于电子商务、大数据分析的论文、学术专著中,而且都未注明出处。其实,2014年微软研究院的吴甘沙就在一次报告中透露,这个故事是编造的[9]。2015年李国杰院士也曾在文章里提及此事[10]。遗憾的是,仍有从事计算社会科学研究的学者至今还捕捉不到这一澄清信息,在2018年发表的论文里,依旧把“啤酒与尿布” 作为大数据关联分析的启蒙案例[11]。而当一些有知名度的学者出现认知偏差后,如果他们在学术会议上、在著名期刊上进行二次传播,认知偏差则会由于权威效应而在相关学科领域更为广泛地流传。


4.3 对大数据“社科特征”的主要认知偏差


对网络大数据特征的描述,一般都是从计算机科学的视角,强调其体量巨大、模式结构多样、增涨速度快等。而要评估并发挥网络大数据的社会科学价值,更重要的是判断数据的质量(是否真实地反映了社会事实)、完整性(所需信息能否全部获得)、代表性(能否很好地代表研究对象)、有效性(能否适合特定研究框架)等特征。本文将这些对社会研究至关重要的特征称之为“社科特征”。在炒作高峰期,恰是在社科特征上,一些似是而非的观点被误认为真知灼见,主要表现在以下几个方面: 


(1)对数据获取能力的高估:认为随大数据时代的到来,“一切皆数据”,网络空间为社会科学提供的数据足以取代传统数据,因此“再也不需要进行问卷调查”等传统信息搜集工作了。 


(2)对数据代表性的忽视:认为大数据意味着“样本=总体”(至少是“样本接近于总体”)的全数据模式,随机抽样方法已经成为历史,故而数据的代表性已不再是需要考虑的问题。 


(3)对数据质量的忽视:认为大数据具有真实性特征,“数据不会说谎”,并且网络数据记录的都是用户的“自然状态”;由于数据规模极其庞大,所以在统计分析中,其误差一定会在可接受的范围之内。


(4)对数据处理能力的高估:认为随大数据分析处理技术的进步,计算机已经或即将 “无所不能”,只要把庞大的数据扔进计算机集群之中,计算机就会告诉我们知识。 


以上认知偏差导致 “大数据优越论” “数据万能论”。带着这些认知偏差,难免会在社会研究中犯这样或那样的错误,难免使基于网络大数据的社会研究偏离切实可行的方向。2015年国内社会科学界掀起大数据热潮,经过几年的高歌猛进后,在2018年明显降温。这种变化趋势折射出基于网络大数据的社会研究在遭遇预期之外的困难和挑战后,正进入“幻觉破灭期”。回顾热潮期的研究成果会发现,其中有很多经不起检验。当前,要使基于网络大数据的社会研究进入“复苏爬升期”,必须首先矫正对大数据社科特征的认知偏差。




5 从信息管理学视角对网络大数据再认识




5.1 学界对网络大数据社科特征的探讨


在大数据热潮中,国内学界也有冷静的声音,虽然这种声音可能在当时并非主流。例如,冯仕政从社会学角度指出了关于大数据科学价值的四种疑虑——不够真、不够全、不够整齐、缺乏代表性[12];乐国安等从心理学视角指出大数据存在一些缺陷,包括不精确、信度低,难以揭示因果等问题,此外数据隐私也是必须予以关注的[13];罗俊等从计算社会科学视角,通过对网络大数据的生成、采集、分析、处理的过程与机制的分析认为,在社会科学领域,“大数据总体论”“大数据自然论”等观点是未经深思明辨而产生的盲目乐观,必须认真考量数据的代表性、真实性以及算法的精确性,避免在研究中落入陷阱[14];杨婧等从传播学视角对社交媒体大数据研究的现实与困境展开探讨指出,其尚不能得到跨平台通用结论、“数据发声”仍需理论支持,以及正在形成的 “大数据鸿沟”等问题[15];王腾蛟等从信息科学角度强调,“从不同角度加以审视,确保对数据的来源、验证方法、控制手段以及是否有脏数据等问题都了如指掌,才能开展下一步的数据分析。”[16]这些学者对网络时代信息获取的限制,网络大数据在社会研究中的弱点与缺陷,以及新技术条件下的数据处理能力的局限性和模糊性等问题有较为清醒的认识,但主要是从具体研究实践中遭遇的失败来反思。当前学界对于大数据的“社科特征”的研究还不够系统,因此接下来还有大量的工作要做。 


要系统深入地认识网络大数据的社科特征,必须遵循科学的认知路径,一定要从个别或少量案例中跳出来。社科学者必须沉下心来完善自身的知识结构,除了需要具备一定的计算机、互联网专业知识,对信息管理学的知识和技能的掌握也极为重要。这是因为网络大数据本质上是一种新型信息资源,而对于信息资源,只有透彻了解信息生成、采集、传输、存储、加工、组织的全过程,才能正确认识其社科特征,正确判断其在社会研究中的优势与缺陷。以下即从信息管理学视角对网络大数据进行分析。


5.2 网络大数据的来源与种类


互联网/移动互联网上生成的大数据是用户行为在网络空间留下的电子踪迹。虽然互联网/移动互联网有一定的普及率,但它们记录的并非所有人的数据。如今,互联网/移动互联网的全球普及率刚刚超过50%。中国的普及情况略高于世界平均水平,调查显示,截至2018年12月,中国互联网用户规模为8.29亿,互联网普及率达到59.6%,移动互联网用户规模为8.17亿[17]。也就是说,仍然有5亿多中国人尚未成为互联网/移动互联网用户,占比超过 40%,在互联网移动互联网大数据中没有他们的行为记录。 


在互联网用户群体中,也绝不是所有行为都会在网络空间留下电子踪迹。以中国用户为例,其平均每周上网时长总体上呈较缓慢增长趋势,至2018年6月达到27.6小时[17],亦即日平均在线时间为3.96小时。除去正常的睡眠时间(按8小时计),用户平均每天仍有约12小时处于离线状态,互联网/移动互联网无法记录他们这段时间的行为与互动。以社交为例,互联网用户的社交行为包括网络空间与现实空间的社交行为,他/她在社交媒体上的行为会被记录为数据,而在现实空间中与同学、同事等的交往则不会被记录。用户的在线行为不是其行为的全部,例如在图书馆读书、在咖啡厅与朋友交谈等诸多线下行为,都不会发生在互联网/移动互联网上。此外,虽然物联网能够借助传感器自动采集人类的行为、空间位置等信息,但这种采集也是有其范围的。直观笼统地宣称“一切皆数据”,只能看作是在运用修辞手法。基于网络的数据获取还远不能(也许永远不能并且也无必要)覆盖人类的全部行为。 


网络大数据记录的是部分人的部分行为,其中很多数据还涉及从个人隐私到国家安全等诸多问题,因此不是社科学者可以随心所欲地获取的。随着数据不断地被不道德使用,世界各国都在出台相关的保护措施。在被保护的个人数据中,有些(例如个人收入、宗教信仰等信息)是一些社会研究不可缺少的变量。这些必备变量的缺失,会使一些研究无法进行。


网络大数据有很多种类,《中国互联网络 发展状况统计报告》将互联网/移动互联网的应用分为基础应用、商务交易、网络金融、网络娱乐、公共服务五大类。基础应用类包括即时通信、搜索引擎、网络新闻、社交应用等;商务交易类包括网络购物、网上外卖、旅行预订等;网络金融类包括互联网理财、网上支付等;网络娱乐类包括网络音乐、网络文学、网络游戏、网络视频、网络直播等;公共服务类包括网约车、在线教育等[17]。各类应用平台生成的数 据记录的是与之相对应的各种人类行为。由 于不同用户有不同的需要,以及受上网时间和精力的限制,他们不可能使用全部的应用。在当前及可预见的未来,只有部分的人类行为向线上迁移,所以,虽然网络大数据极大地丰富了社会信息资料,但并不意味着已经能够满足社会研究的全部需要。此外,不同的用户有不同的使用偏好,有些用户主要是浏览新闻,有些主要是通过电商平台购物,有些则把大量时间花在了网络游戏上。各类应用都有自己对应的用户群体,对于任何一类应用平台来说,总有一些用户是“不可见”或“很少见”的,即便是同一类应用,用户也会选择不同的平台,这使得单一的应用平台往往无法为特定的社会研究提供足够完整的数据。


5.3 网络大数据的代表性


从上述数据来源与数据种类的分析可以发现,所谓大数据时代带来了“样本=总体”的全数据模式,对于大多数社会研究来说,其实只是一种幻象。在社会研究中,“总体”是相对于研究对象而言的,“总体数据”应指包含了全体研究对象的数据。每一种网络应用都有自己的用户群体,除非某项研究正好以该群体为研究对象,否则数据量再大也不是总体或接近于总体的数据。而只要不是总体数据,就必须根据所研究的对象来审慎判断数据是否有很好的代表性。 


在这一问题上,曾有一些运用网络大数据的研究给人们带来错觉,例如Andranik Tumasjan等对2009年德国联邦议会选举的一项研究显示,德国各政党(基民盟、社民党、自民党、左翼党、绿党、基社盟)在议会选举中的得票率 与该政党在推特上的被提及率正相关[18]。该 研究基于10万余条推文,而德国推特用户显然并不能很好地代表德国选民,但该研究的结论似乎既正确又有说服力。Andreas Jungherr 等对此提出质疑,并开展了进一步的研究,发现Andranik Tumasjan等在研究中没有将“海盗党”这个反对网络知识产权保护的小党包括在内,如果将该党纳入,就会得出完全不同的结论。“海盗党”的支持者绝大多数是活跃于网络新媒体的年轻人,因此“海盗党”在推特上被提及率最高,但在该次选举中得票最少[19]。这一案例再次证明了“数据规模大≠代表性好”,但忽视网络大数据代表性的社会研究仍不断出现。直至2016年美国大选期间,包括微软“必应指数”在内的各种基于网络大数据的选举结果预测全军覆没,大数据代表性问题才得到广泛的重视。网络大数据不是按社会研究的要求来生成,因此,除了样本内问题的研究,数据的代表性是必须认真考察的。


5.4 网络大数据的质量


对于网络大数据而言,影响数据质量的原因可分为两类,一类是因技术方面的原因而导致数据失真、混乱,例如出现脏数据;另一类是非技术原因,因数据生产者(包括用户和应用平台)人为因素而导致数据与社会事实不符。 


因技术原因导致的数据质量问题需要由计算机专家来解决,但社科学者在将某种数据运用于社会研究时,对其是否存在脏数据等问题必须心中有数,这就要求社科学者必须具备计算机与信息管理方面的知识。 


因非技术原因导致的数据质量问题则较为复杂,其背后隐藏着政治、经济、社会心理等诸多因素。起初,网络大数据被认为是对人类“自然”行为的真实记录。所谓“自然”,是指由于互联网的匿名性,以及用户不知道或不在意被研究者观察等原因,因而无需刻意表现出某种状态或掩饰某种倾向,其表现会比作为受访者时更为真实,不存在“霍桑效应”等干扰。然而,不能因此就简单地认为网络大数据完美地反映了人类行为与社会事实。事实上,网络大数据并不是社会现实空间在网络空间中的完美映射。首先,很多数据的生成在不同程度上受算法引导,这在商业性的资讯平台上表现得尤为明显。这些平台通常是免费提供信息服务,而以广告投放等方式获取收入,因此通常会通过算法设计来提升流量,可能出于某种目的去引导用户的行为[20]。其次,随着互联网经济的发展,许多数据的价值被发现,数据造假也就越来越普遍,例如,在电子商务领域,刷销量、刷好评已然成为常态;在搜索指数上,为提高搜索排名而采用的造假行为也屡见不鲜,这都会使数据受到污染。最后,近年来出于政治、经济等目的而进行的信息操纵也有愈演愈烈之势,例如2017 年曝光的“通俄门”[21]“剑桥分析”[22]等事件,相关信息在很大程度上是被人为操纵而生成的。数据不会说谎,但可能数据记录的本来就是谎言。这些因素会严重影响数据的质量,而且既不容易察觉也不容易消除,在社会研究中对此必须高度警惕。


5.5 数据处理水平:对数据效度的制约


基于网络大数据的社会研究兼具数据驱动与算法驱动的特点。也就是说,能够获取什么样的数据,算法能够对数据加工到什么程度,对研究具有重要的影响。在互联网、移动互联网、物联网三大网络上以文本、图片、声音、视频等形式存在的非数值型、非结构化数据占据绝大多数。对于定量研究而言,需要从中提取目标变量,必须借助自然语言处理、计算机视觉等新技术。当前这些技术还大多处在初级阶段,例如在自然语言处理领域中,只有语音识别在日常用语范围内达到了很高的精准率,而对文本的主题提取、情绪识别等技术依然精确度有限,在大多数情况下还无法把原始数据加工成具有足够效度的分析数据。例如,利用网络搜索数据来分析互联网用户对某个人或某一事件的关注度,通常能够把原始数据加工为有效度的数据。因为这类研究的框架较为简单,即假定搜索频度越高表明关注度越高,所以提取变量的算法也很简单,只需计算出一定时间段内的用户搜索次数就可以了。但如果想要精确分析用户对某一事物所持的态度、观点就相当困难甚至是不可能的。例如,2016年英国举行的脱欧公投,谷歌搜索数据显示,在结果公投公布6小时后,英国人对该事件的相关搜索猛增,排名前列的几个热搜关键词都与关于欧盟的知识有关,显然英国公众对脱欧事件甚为关注。但有人据此得出“大数据告诉你英国人后悔了”的结论却是不可靠的。线下调查发现,赞成脱欧的人中只有7%表示后悔,也就是说绝大多数人并未改变态度。进一步的研究显示,留欧派占绝对优势的北爱尔兰和苏格兰出现上述搜索行为最多。因为对这些地区的很多人来说,投票结果是出乎意料的“黑天鹅事件”,他们事前毫无准备,所以急于了解脱欧可能产生的负面影响(如汇率是否会很快出现变化),以尽快采取措施,这才是相关搜索行为猛增的原因。可见,搜索数据能够为分析英国搜索引擎用户(并非全体英国公民)对脱欧的关注度提供效度较高的数据,但想知道关注的原因、对脱欧的态度,以及可能采取的反应等,当前的数据处理技术还达不到研究的要求。至于有人宣称只要把庞大的数据扔进计算机集群之中,计算机就会告诉我们知识,而我们并未看见这种情况在社会研究中出现(即便出现,至多是个案性的而非普遍性的)。




6  突破路径



|| 6.1 筑基工程:网络大数据社科特征的跨学科研究 ||

由上文分析可见,当不是通过个别或少数案例而是运用信息管理学的科学方法,从信息生成、采集、传输、存储、加工、组织的过程进行分析,就不难发现网络大数据的社科特征,进而清醒地认识到在社会研究中必须予以注意的问题。但认识到了网络大数据运用于社会研究的诸多困难,绝不是要从“数据万能论”的极端走向“数据无用论”的极端,而是要继续探索如何克服困难,充分发掘出这些新型信息资料的社会科学价值。大数据时代毕竟使我们获得了很多在社会现象和人类行为方面过去没有的信息资料,并且随着信息技术进一步发展,会有越来越多的数据被生产出来。虽然当前的数据处理技术在很多方面还达不到人工分析的精确度,但大数据处理的精细化程度的提高是不容置疑的。因此,对之持消极放弃的态度无疑是错误的,就像传统数据也存在固有的缺陷,但社会科学家并没有放弃传统数据一样。 


本文从总体上对网络大数据的主要社科特征进行了分析,这还只是有助于避免研究中的错误,尚不足以找出解决问题的方案。因为不同种类的网络大数据的信息生产者、网络应用平台、技术实现方式各不相同,要用好这些数据,当前的首要任务是根据社会研究的需要,有针对性地对各类可供社会研究所用的网 络大数据的社会特征进行系统而深入的研究,这是计算社会科学必须完成的“筑基工程”。只有筑好了这个基础,才能在研究方法和具体技术层面发展出一套完善的规范,提高基于大数据的社会研究的水平。这项工作需要计算社会科学与信息管理学之间建立起更为紧密的合作。当前,信息管理学领域已经对一些网络应用所产生的数据进行了系统的研究,如搜索数据、网络购物数据、网络社交数据等,但尚不够全面。此外,与计算社会科学之间尚未形成足够紧密的联系和契合度。一方面,致力于计算社会科学的各学科领域的学者,对各种网络数据的特征往往还缺乏全面的、系统的认识,因而制约了研究的质量;另一方面,信息管理学的学者对一些社会科学学科的研究需要也不甚了解,因而难以准确把握着力点。信息管理学与各社会科学领域的跨学科合作还有待升级。

|| 6.2 资源整合:网络大数据与传统数据互补长短 ||

如前文所述,网络大数据虽然避免了传统数据的一些缺陷,但同时也带有新的缺陷。因此,在研究中可以思考如何将网络大数据与传统数据结合运用,使之互补长短。国内已有学者对此进行了尝试,例如,郝龙等研究网络新闻对患方信任的影响,先通过对新浪新闻大数据的挖掘与分析发现,网络媒体及其用户对关于医患关系新闻具有明显的负面偏好;然后, 运用2013年中国社会状况综合调查 (CSS2013)的数据进一步分析证明,网络新闻浏览频率与患方信任程度之间存在显著的负相关关系[23]。该研究表明网络大数据与传统数据能够在社会科学研究中相互补充,将两种或多种数据资源的结合运用是提高实证研究的有效途径之一。 


网络大数据并非为社会科学研究量身定制,因此在社会研究中常会存在不足之处。在很多时候,网络大数据有很强的相关性发现能力,但在因果性验证方面难以达到严谨的实证条件。故而,社科学者可以充分发挥网络大数据在探索性研究上的优势,运用大数据挖掘、分析来探索发现复杂社会现象中可能隐藏的模式,以启发思路和提出研究假设;然后,针对网络大数据的不足(如不够完整、不具代表性、质量可疑),采用合适的传统方法获取补充性、校验性数据,将两种数据整合,以保证研究的科学性与严谨性。

|| 6.3 方法探索:运用新兴技术创新数据分析方法 ||

基于网络大数据的社会研究尚处在起步阶段,其研究方法亦在探索之中。新兴信息技术在数据处理上存在局限,只是说明它们并非无所不能,但绝不是意味着它们不为创新研究方法提供条件。例如,人工智能的一些算法对社科学者具有重要的启示,国内已有学者在这方面进行探索。尹海洁等在对大学毕业生的成就性水平及其影响因素的研究中,尝试将BP(back propagation)神经网络(以误差逆向传播算法训练的多层前馈神经网络)运用于多变量之间的因果关系分析,并将得出的结果与相关分析、回归分析相比较,探讨了用神经网络分析方法来分析社会现象复杂关系的优势与缺陷。神经网络分析最大的优势是能够较好地模拟变量间的非线性关系,所反映出的变量间的关系更接近于现实;而其最明显的缺陷则在于以黑箱的形式完成运算过程,因而不能将变量之间的复杂关系直接展现出来。传统的统计学分析方法大多是以线性分析为基础,但在现实社会中,变量之间呈严格或近似线性关系的情况是很少的,因此,传统方法不可避免地存在对变量关系的简化和信息的丢失[24]。运用 BP 神经网络来实现对变量之间非线性关系的分析具有重要的方法论意义。尽管此类研究还处在初步探索阶段,但无疑是在正确理解新兴信息技术的前提下,为社会研究开辟新路径的有益尝试。




7 结论



新一轮的信息技术革命为以信息获取与信息处理为基础的社会研究带来了新的机遇,基于网络大数据的社会研究由此受到国内学界前所未有的重视。但网络大数据的社会科学价值远未被充分挖掘出来,甚至不少研究者还偏离了可行的发展方向。出现这种情况的一个重要原因是,新兴信息技术对社会研究产生巨大影响是始料未及的,社科学者对此并无充足的准备。新兴信息技术的内涵超出了众多社科学者的知识边界,同时社科学者大多不了解新兴技术从产生到成熟大多会经历一个炒作周期,更缺乏应对炒作高峰期复杂信息环境的经验。这使不少社科学者对大数据的社科特征出现认知偏差。此类认知偏差主要表现在对数据获取能力的高估、对数据代表性的忽视、对数据质量的忽视、对数据处理能力的高估四个方面。 


从信息生成、采集、加工、组织的过程来分析网络大数据的主要社科特征,充分了解数据的来源、种类,数据生产者与网络应用平台的特点,各种应用技术实现方式,以及当前的数据处理水平,就能够从总体上矫正上述认知偏差。而矫正偏差还只能避免对网络大数据的误判和误用,尚不足以找到充分发挥网络大数据潜力的办法。不同种类的网络大数据,生成、采集、加工、组织的过程各不相同,因此其社科特征也会有所不同,要想在研究方法和具体技术层面发展出一套完善的规范,首先,需要对各种可用于社会研究的网络大数据更加细化和深入的研究,这是一项重要的“筑基工程”,要完成这项工程,各社科领域的学者除了要完善知识结构,掌握必须的计算机、互联网知识,还需要与信息管理学实现紧密的跨学科合作;其次,需要充分认识网络大数据与传统数据各自的优势与缺陷,在研究中注重整合两种资源,使之互补长短;最后,要充分重视新兴信息处理技术,致力于创新发展出适应大数据的分析方法。这是将基于网络大数据的社会研究引入“复苏爬升期”,使计算社会科学最终跻身于主流的社会研究方法之列的可行路径。


详见《牛津词典》、《柯林斯词典》data词条的释义。

根据 Gartner 2012—2014 The Hype Cycle for Emerging Technologies改绘。

限于篇幅,此处不对物联网相关应用展开讨论,拟另行撰文论述。

黄培昭.英国人“反悔”想搞二次公投,媒体宣称翻盘机会为零.环球时报,2016-06-27.



作者简介

刘存地,男,博士研究生,研究方向为计算社会科学,传媒社会学。


参考文献







*原文载于《信息资源管理学报》2020年第2期37-47页,欢迎个人转发,公众号转载请联系后台。


* 引用格式

刘存地.认知偏差与突破路径:炒作高峰期后的大数据与社会研究[J].信息资源管理学报,2020,10 (2):37-47.

制版编辑 | 王小燕





往期荐读



论文荐读 2020年第2期 | 基于大数据应用的政府治理效能评价指标体系构建研究

论文荐读 2020年第2期 | 突发公共卫生事件中的科学应对与思考:图情专家谈新冠疫情

论文荐读 2020年第3期 | 名家讲坛:学科探路时代——从未知中探索未来

论文荐读 2020年第2期 | 加强信息治理与利用,有效提升疫情防控能力

论文荐读 2020年第2期 | 新型冠状病毒肺炎疫情下应急信息综合治理的反思

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存